Nous dépassons les limites des modèles linéaires, qui peinent à classer les données non séparables par une droite. Aujourd'hui, nous appliquons le flux de travail PyTorch pour construire un réseau de neurones profond (DNN) capable d'apprendre frontières de décision complexes et non linéairesessentielles pour les tâches de classification du monde réel.
1. Visualisation de la nécessité des données non linéaires
Notre première étape consiste à créer un jeu de données synthétiques exigeant, comme la distribution en deux lunes, afin de montrer visuellement pourquoi les modèles linéaires simples échouent. Ce cadre nous oblige à utiliser des architectures profondes pour approximer la courbe complexe nécessaire séparant les classes.
Propriétés des données
- Structure des données :Caractéristiques de données synthétiques (par exemple, $1000 \times 2$ pour $1000$ échantillons avec 2 caractéristiques).
- Type de sortie :Une valeur de probabilité unique, souvent
torch.float32, représentant l'appartenance à une classe. - Objectif : Créer une frontière de décision incurvée grâce au calcul en couches.
La puissance des activations non linéaires
Le principe fondamental des DNN est l'introduction de non-linéarité dans les couches cachées à travers des fonctions comme ReLU. Sans ces fonctions, empiler des couches ne produirait qu'un grand modèle linéaire, quelle que soit la profondeur.
TERMINALbash — environnement-classification
> Prêt. Cliquez sur "Exécuter" pour démarrer.
>
Inspecteur de tenseurs En direct
Exécutez le code pour inspecter les tenseurs actifs
Question 1
Quel est le but principal de la fonction d'activation ReLU dans une couche cachée ?
Question 2
Quelle fonction d'activation est requise dans la sortiecouche pour une tâche de classification binaire ?
Question 3
Quelle fonction de perte correspond directement à un problème de classification binaire utilisant une sortie sigmoïde ?
Défi : Conception de l'architecture centrale
Intégration des composants architecturaux pour l'apprentissage non linéaire.
Vous devez construire un
nn.Module pour la tâche en deux lunes. Caractéristiques d'entrée : 2. Classes de sortie : 1 (probabilité).
Étape 1
Décrivez le flux de calcul pour une seule couche cachée dans ce DNN.
Solution :
Entrée $\to$ Couche linéaire (matrice de poids) $\to$ Activation ReLU $\to$ Sortie vers la couche suivante.
Entrée $\to$ Couche linéaire (matrice de poids) $\to$ Activation ReLU $\to$ Sortie vers la couche suivante.
Étape 2
Quelle doit être la taille de la dernière couche si la forme d'entrée est $(N, 2)$ et que nous utilisons une perte BCE ?
Solution :
La couche de sortie doit avoir une taille de $(N, 1)$ pour produire une note de probabilité unique par échantillon, correspondant à la forme de l'étiquette.
La couche de sortie doit avoir une taille de $(N, 1)$ pour produire une note de probabilité unique par échantillon, correspondant à la forme de l'étiquette.